import pandas as pd
import re


def clean_content(content):
    """清洗内容列中的数据，去除 # 包裹的内容和类似【】包裹的内容"""
    if isinstance(content, str):  # 检查内容是否为字符串类型
        content = re.sub(r'#(.*?)#', '', content)  # 去除 # 包裹的内容
        content = re.sub(r'【(.*?)】', '', content)  # 去除 【】包裹的内容
        return content.strip()
    else:
        return str(content)  # 如果不是字符串类型，则将其转换为字符串并返回


def main():
    # 读取 Excel 文件
    df = pd.read_excel('./dic_13/proccess.xlsx')

    # 将 'content' 列中的所有元素转换为字符串类型
    df['content'] = df['content'].astype(str)

    # 应用清洗函数到 'content' 列
    df['cleaned_content'] = df['content'].apply(clean_content)

    # 将清洗后的数据写入到 Excel 文件中
    df.to_excel('./dic_13/cleaned.xlsx', index=False)

    print("清洗后的数据已写入到 a_cleaned.xlsx 文件中。")


if __name__ == "__main__":
    main()
